Vol.04 GPT-4即将到来,新一代GPT意味着什么
卷首语
这周还是 4 篇文章。
尤其建议大家认真看看第三篇,如果 OpenAI 的底层模型继续进化,思考一下,新机会在哪里,长期有价值的商业生态位又在哪里?
第一篇,我把 ChatGPT 类比成历史上的数据库和云。基础设施的发展,让构建应用变得越来越简单,也让 IT 能力不再是核心竞争力。商业的竞争又回到了本质:洞察市场 & 设计生意。
第二篇,徐文浩演示了一下,如何用 ChatGPT 写代码做出一个小插件,让 OpenAI 根据你输入的商品中文的描述,去重新取英文标题,描述卖点、建议销售的价格范围。如果重新给这篇文章取名字,应该叫“30 分钟学会编程,开掉公司一半人”。
第三篇,徐文浩介绍了一下 OpenAI 即将推出的 GPT-4,主要关注在 32K 的上下文支持上。随着 AI “记忆力”的稳步提升,或许我们很快就能把一个人一生的对话都放进去。而在具体的商业场景中,更大的上下文支持,其实提供了不用 finetune 就可以让模型全面理解业务提供定制化服务的可能性。
第四篇,我介绍了麦肯锡的一个框架,它将人类经济行为分为三类:生产、交易和互动。其实本质上从营销人编写营销文案到律师提供法律建议,都算做互动。这个领域最近两年会受到 AI 巨大的冲击。
这次的卷首语我写得很快很顺,主要原因是把协作办公区搬到了 Notion 上面。让 Notion AI 帮我做了每一个板块的总结。虽然它总结的文字基本不能直接用,但“看到一段文字,觉得很嫌弃,一边叹气一边改”比“对着空白文档,自己一个一个字敲”还是容易太多了:)
——任鑫
1
INFRASTRUCTURE
ChatGPT 是新的数据库和云
其实,我倒是没觉得弄懂技术有那么重要。这一次 AI 浪潮,最大的变化,就是让使用 AI 的复杂性,从商业侧挪到了基础设施(比如模型)侧。这时最普遍的机会,其实是理解新的基础设施带来的新能力(和局限),在其之上做东西。
历史上这样的事情发生过很多次。
比如“数据库”,刚有这个概念的时候,每家公司都得自己做,只有大公司能自建自用。后来出现了第三方标准产品,小公司也能开箱即用,极大增强了小公司的数据应用能力;
再比如“云”,我 2011 年创业的时候,还和 Mango 同学去机房搬过刀片服务器,然后看他施魔法一样管理一大堆服务器让今夜酒店特价 APP 能够正常运行。现如今,这都是阿里云或者 AWS 的事儿,小白点几下按钮付个钱就能搞定。
基础设施的升级,让大量的前端复杂性被封装到了能力提供商那层。而这一次看起来,被封装的能力其实是”常识能力“和”对话能力“。虽然都不完善,但和 7 年前(我上一次创业做 Get 的时候)相比,已经近乎神迹。
什么是常识?举例来说,我们 7 年前做 Get 的时候也用到了一些 AI,比如用微软的 API 来帮助判断用户表达当中的情绪、比如自己搭了一个模型来预测用户第二天体重变化。这些功能都有用,甚至于比现在的 ChatGPT 类似功能更精准,但缺乏常识基础导致所有功能都只能在训练范围内有效。
比如用户如果告诉 Get AI 她今天中午吃了一头大象,Get AI 要么会认为这是个错误数据,要么会帮助用户计算今天摄入了 1 吨的肉食,而不能像 ChatGPT 那样敏锐识别到”这是个玩笑,应该和用户瞎聊几句“;比如用户告诉 Get AI 她中午出去吃饭差点遇到车祸很危险,吓了个半死,所以没吃东西,Get AI (在人工不干预情况下)只会警告她不吃午饭对健康的7种危害并且调高日后对她的科普力度,而没有常识去回应”车祸“和”情绪“相关部分。
那对话有什么用呢?一是给用户普世化的交互界面,二是给创业者一个普世化的”编程“界面。
给用户这边,自然语言是最”自然“的交互方式,真的能普及的话,可以让我们已有的互联网服务范围至少再扩大一倍。
能看这个公众号文章的同学们,大部分可能对这一点毫无感知——因为我们都是高级用户。我举个例子,我过年时看到一个亲戚的手机屏幕是他太太的照片,但是照片下面还有几个安卓的菜单符号,明显是截屏而不是原片,聊下来发现他是在微信群看到的照片,女儿发的,但他不知道怎么保存照片,就截屏做了壁纸。还有很多用户,并没有掌握现在的各种图形化界面,如果让他们用自然语言表达“这张照片不错,帮我做成手机壁纸”会轻松很多。
而在给创业者这边,其实也是提供了极简单的编程界面。
做 Get 的时候,我们虽然也是基于大厂开源的架构来做自己的模型,但当时不仅主程要花时间花精力研究,而且我还拉了两个大学室友(碰巧都是 AI 大神)在群里帮忙指点,也花了不少代价才跑通。但现在,我这个已经 20 年没写代码的,都觉得自己可以靠自然语言 Prompt Engineering 就能调通好几个细分场景的方案。这就使得构建 AI 应用变得极其简单,难点又回到了市场洞察和商业设计上。
相关延伸
2
EXPERIENCE
让ChatGPT写使用GPT的插件的体验
Excel写插件需要用VBA,但是好久没有写过VBA了,那怎么办?想了一下决定把需求描述给ChatGPT,让他帮我写。于是,就有了下面这样的画面:
不幸的是,手上是一台Mac,不能生成VBA里面生成的ActiveX的对象,和ChatGPT聊了一下,让他不要用MSXML2.XMLHTTP。但是它还是傻傻用另一个依赖ActiveX的WinHTTP组件。
不想再重新开WIndows电脑,所以决定先不用Excel了,直接用Google Sheet吧,网页版就可以了,于是ChatGPT还像模像样地把代码写出来了。
不过直接扔到 Google Sheet 的 AppScript 里有错,发现问题是最后增加一个按钮,触发调用OpenAI的API有问题。和ChatGPT纠缠了一会儿,发现它给的都是错误答案之后,还是老老实实切换回Google搜索找到了解法。
然后调试了一下,一个小的新功能就可以自己用了。
小小一段代码,可以让Open AI根据你输入的商品中文的描述,去重新取英文标题,描述卖点、建议销售的价格范围。
效果大概是下面这样:
整个过程大概前后花了2个小时左右。这个时间是基于几点:
1. 我并不熟悉App Script这门编程语言2. 我没有使用任何本地的开发工具IDE,所有的代码直接找了个在线JS工具进行错误调试3. 我是个非常有经验的程序员,能在ChatGPT写出来的代码报错的时候快速通过搜索和调试工具解决问题4. 主要的代码都是ChatGPT写的,我主要就是在它生成的代码基础之上Debug
我相信一个熟练的Javascript程序员可以更快地完成这个任务,而一个不会写程序的人可能不能在ChatGPT胡扯的时候解决问题。不过,对我来说,ChatGPT是一个非常好的帮手。如果没有它,我至少需要先读个一天App Script的文档才能动手。
不过,后面尝试把这个代码变成一个Google Sheet插件发布的体验就非常糟糕了。一方面,ChatGPT似乎没有足够的相关信息,给出的都是粗略的步骤,然后对应的步骤在Google的文档里又进入了圆环套圆环指向下一个文档的过程。在尝试了2个小时左右之后,我先放弃了。从这个体验来看,Google现在的这个笨重迟缓的状态并不是偶然的了。
🎁 粉丝福利
对这个功能有兴趣的同学,我会将对应的提示词和代码都放出来。关注公众号,回复:预约领取
我们会在后续的文章、直播中同步领取细节,如果想围观的同学比较多,会考虑直播敲代码的过程。
3
MODEL
GPT-4可能要来了,这又意味着什么?
里面的价格信息其实我不太关注,但是提供的最大的模型有 32K 的Context的确惊到我了。从这个表格来看,这个 32K 应该是指 提示词 + 补全 可以达到32K Token,而我们现在用的GPT3.5只有4K。大家都在推测这个就是还没有公开发布的GPT-4的模型。
32K是个什么概念呢?
按照OpenAI的官方文档说法,你可以认为英文里面,3个单词一般会需要消耗4个Token,这是因为有些单词在分词的过程里面会拆成两个Token,比如 icecream 会变成 ice 和 cream,这么做是为了模型的语义模型更好。那 32K Token意味着差不多 2万4千个单词。
现在大家在用GPT3.5的时候,其实要做不少的工程工作。
比如做多轮对话,不能轮数太多,太多的话到后面ChatGPT就忘记了前面的事儿。这是因为模型只能支持 4K 的Token,所以只能往里塞过去5轮或者10轮的对话。而在很多人做的阅读理解类的应用里,大家也要做很多工程化的工作,通过embedding或者语义搜索定位相关文本,再调用Open AI的接口来解决问题。
而有了2万4千个单词的上下文,世界就完全不同了。要知道,平均一本英文书,也就是5万到10万的单词量。
这意味着你可以一次把半本书的上下文直接扔给大语言模型然后向他问问题,而不需要做任何中间的工程工作。
今天所有流行的中间工程库比如gpt-index, langchain等等在这个情况下都不需要了。而这还只是GPT-4,如果GPT-5呢?
从能够支持的上下文的数量来说,GPT-4比GPT-3大了8倍,那如果GPT-5,6也来个8倍的话。也许我们离把整个人一生所说的对话都放到GPT模型里面不远了,我想这也是为什么Sam说在3-5年内可能我们不再需要提示词工程了吧。你只需要把一个人说的话都扔给AI,它就能模仿一个真实的你出来。
相关延伸
4
AI BUSINESS
ChatGPT 如何改变商业
自动化和信息化提高了生产效率,而各种互联网平台提高了交易效率,现在轮到 ChatGPT 来提高互动效率。这个角度很有意思,价值是生产出来的,交易可以让我们更有效配置资源用于生产(和消费),而互动让我们搞清楚情况相互了解。
套这个模型的话,其实当面聊天是互动,我现在写这篇东西也是互动,去搜索引擎投广告也是互动,律师给你解释法条和建议行动也是互动……这样延展下来,会发现其实大量人类的工作,都只是在互动而已。大部分时候,人类只是 as an interface。
语言模型在训练后,在基础层面可以替代大量重复性互动(比如客服;比如酒店前台),而在高端层面也可以起到开拓创造性(相当于提供了一个帮助脑暴的团队)的作用。其实侵蚀了原来工作安全感最足的领域,大量的岗位都必须学会如何和 ChatGPT 共存。
相关延伸
待办清单
直播预约
加入社群:
长按图片扫码,加入知识星球
全平台搜索关注
商务合作:公众号菜单栏 - 联系我